12 research outputs found

    Multimodal Grounding for Language Processing

    Get PDF
    This survey discusses how recent developments in multimodal processing facilitate conceptual grounding of language. We categorize the information flow in multimodal processing with respect to cognitive models of human information processing and analyze different methods for combining multimodal representations. Based on this methodological inventory, we discuss the benefit of multimodal grounding for a variety of language processing tasks and the challenges that arise. We particularly focus on multimodal grounding of verbs which play a crucial role for the compositional power of language.Comment: The paper has been published in the Proceedings of the 27 Conference of Computational Linguistics. Please refer to this version for citations: https://www.aclweb.org/anthology/papers/C/C18/C18-1197

    Uni- and Multimodal and Structured Representations for Modeling Frame Semantics

    Get PDF
    Language is the most complex kind of shared knowledge evolved by humankind and it is the foundation of communication between humans. At the same time, one of the most challenging problems in Artificial Intelligence is to grasp the meaning conveyed by language. Humans use language to communicate knowledge and information about the world and to exchange their thoughts. In order to understand the meaning of words in a sentence, single words are interpreted in the context of the sentence and of the situation together with a large background of commonsense knowledge and experience in the world. The research field of Natural Language Processing aims at automatically understanding language as humans do naturally. In this thesis, the overall challenge of understanding meaning in language by capturing world knowledge is examined from the two branches of (a) knowledge about situations and actions as expressed in texts and (b) structured relational knowledge as stored in knowledge bases. Both branches can be studied with different kinds of vector representations, so-called embeddings, for operationalizing different aspects of knowledge: textual, structured, and visual or multimodal embeddings. This poses the challenge of determining the suitability of different embeddings for automatic language understanding with respect to the two branches. To approach these challenges, we choose to closely rely upon the lexical-semantic knowledge base FrameNet. It addresses both branches of capturing world knowledge whilst taking into account the linguistic theory of frame semantics which orients on human language understanding. FrameNet provides frames, which are categories for knowledge of meaning, and frame-to-frame relations, which are structured meta-knowledge of interactions between frames. These frames and relations are central to the tasks of Frame Identification and Frame-to-Frame Relation Prediction. Concerning branch (a), the task of Frame Identification was introduced to advance the understanding of context knowledge about situations, actions and participants. The task is to label predicates with frames in order to identify the meaning of the predicate in the context of the sentence. We use textual embeddings to model the semantics of words in the sentential context and develop a state-of-the-art system for Frame Identification. Our Frame Identification system can be used to automatically annotate frames on English or German texts. Furthermore, in our multimodal approach to Frame Identification, we combine textual embeddings for words with visual embeddings for entities depicted on images. We find that visual information is especially useful in difficult settings with rare frames. To further advance the performance of the multimodal approach, we suggest to develop embeddings for verbs specifically that incorporate multimodal information. Concerning branch (b), we introduce the task of Frame-to-Frame Relation Prediction to advance the understanding of relational knowledge of interactions between frames. The task is to label connections between frames with relations in order to complete the meta-knowledge stored in FrameNet. We train textual and structured embeddings for frames and explore the limitations of textual frame embeddings with respect to recovering relations between frames. Moreover, we contrast textual frame embeddings versus structured frame embeddings and develop the first system for Frame-to-Frame Relation Prediction. We find that textual and structured frame embeddings differ with respect to predicting relations; thus when applied as features in the context of further tasks, they can provide different kinds of frame knowledge. Our structured prediction system can be used to generate recommendations for annotations with relations. To further advance the performance of Frame-to-Frame Relation Prediction and also of the induction of new frames and relations, we suggest to develop approaches that incorporate visual information. The two kinds of frame knowledge from both branches, our Frame Identification system and our pre-trained frame embeddings, are combined in an extrinsic evaluation in the context of higher-level applications. Across these applications, we see a trend that frame knowledge is particularly beneficial in ambiguous and short sentences. Taken together, in this thesis, we approach semantic language understanding from the two branches of knowledge about situations and actions and structured relational knowledge and investigate different embeddings for textual, structured and multimodal language understanding

    Multimodal Grounding for Language Processing

    Get PDF
    Ifølge lovverket skal pasienter og brukere involveres i avgjørelser om sin egen helse (brukermedvirkning på individnivå) og i utforming av helse- og omsorgstjenester (brukermedvirkning på tjeneste- og systemnivå). Sentrale offentlige dokumenter understreker også at brukermedvirkning i tjenesteforskning er viktig for å få gode og relevante helse- og omsorgstjenester. Innvandrere utgjør 14,7 prosent av befolkningen vår. For å sikre likeverdige helse- og omsorgtjenester er det viktig at innvandrere medvirker i beslutninger om sin egen behandling, i utforming og utvikling av helse- og omsorgstjenester og i tjenesteforskning. Derfor presenterer vi i denne oppsummeringen kunnskap om hvordan innvandreres brukermedvirkning kan ivaretas. Den bygger på gjennomgang av publikasjoner fra forsknings- og utviklingsarbeid samt offentlige dokumenter relatert til emnet. For å ivareta innvandreres brukermedvirkning bør man ha kjennskap til barrierer som kan hindre medvirkning. Barrierer for innvandreres samvalg, som er en form for brukermedvirkning på individnivå, kan være: • språkbarrierer • lav helsekompetanse • liten tillit til helsevesenet • tilbakeholdt informasjon • helsepersonell med lite kunnskap om innvandreres bakgrunn • helsepersonell og innvandrere har ulike syn på helse og sykdom • helsepersonell og innvandrere har ulike rolleforventninger • helsepersonell og innvandrere har fordommer og stereotype forestillinger om hverandre • innvandrere har negative erfaringer med helsevesenet • strukturelle barrierer og organisatoriske barrierer inkludert tidspress Samvalg er en prosess hvor pasient og helsepersonell kommer frem til og tar beslutninger om undersøkelses- og behandlingsmetoder. Samvalg er aktuelt i medisinske og helsefaglige beslutninger som innebærer valg mellom flere tilgjengelige og forsvarlige behandlingsalternativer. I denne prosessen er pasientens egne prioriteringer viktige (mestring.no, 2018). Ifølge forskning og erfaringer fra utviklingsarbeid kan tolk, visuelle hjelpemidler og samvalgsverktøy som er tilpasset de aktuelle målgruppene, være gode virkemidler for å bøte på språkbarrierer og ivareta samvalg. Tolker skal oversette alt som sies, og bør informeres om hvordan og hvorfor helsepersonell jobber med å fremme samvalg. En bør inkludere målgruppen i arbeidet med å utvikle samvalgsverktøy. Samvalgsverktøy er verktøy som er laget for å fremme pasienters deltakelse i avgjørelser om egen behandling. Samvalgsverktøy presenterer ulike behandlingsalternativer og fordeler og ulemper ved disse. De kan også bidra til at pasienter får en klarere bevissthet om sine egne preferanser og verdier (Nathan, Marshall, Cooper, & Huang, 2016; Stacey mfl., 2017) Intervensjoner for å øke helsekompetanse hos en innvandrergruppe fordrer dialog for å avklare nåværende forståelse, informasjonsbehov og foretrukne informasjonskanaler. For å bøte på andre barrierer for samvalg foreslår forskning og andre rapporter følgende tiltak: å bruke støttende kommunikasjon, å jobbe med å oppnå tillit og bygge gode relasjoner og å bruke helsepersonell med liknende språklig og/eller kulturell bakgrunn som pasienten. Også faktorer utenfor pasient–helsepersonellinteraksjonen er viktige for å fremme samvalg. Forskere foreslår følgende tiltak for å bøte på dette: at ledelsen formidler at samvalg er noe som prioriteres, at helsepersonell har nok tid under konsultasjonen, at det lønner seg økonomisk for helsepersonell å jobbe med samvalg, at det er tid nok til å bruke tolk, at det er god tilgang på profesjonell tolk og samvalgsverktøy, og at det fysiske miljøet er tilpasset på en slik måte at det får ulike innvandrergrupper til å føle seg inkludert. Brukermedvirkning på tjenestenivå og systemnivå har tradisjonelt sett blitt ivaretatt gjennom tiltak som brukerundersøkelser og deltakelse i råd og utvalg. Forskning tyder imidlertid på at barrierer som lite tid, økonomi, begrensete språkkunnskaper, for høye krav til kompetanse og en marginalisert posisjon kan hemme innvandrergruppers deltakelse i slike tiltak. Derfor bør også andre tilnærmingsmåter brukes for å ivareta disse gruppenes brukermedvirkning i utvikling av helse- og omsorgstjenester. Det å observere pasienter i kontakt med helsetjenesten kan være en god framgangsmåte for å få innsikt i opplevelser og helsetjenestebehov. Fokusgrupper kan brukes til å få informasjon om brukererfaringer i møte med helse- og omsorgstjenestene. Samarbeid med organisasjoner for og med ulike innvandrergrupper kan også bidra til brukermedvirkning på tjeneste- og systemnivå siden organisasjoner kan bidra med informasjon om ulike innvandrergrupper og deres helsetjenestebehov og kan bidra til kontakt med den aktuelle gruppen. Nøkkelpersoner, det vil si personer som tilhører og kjenner den aktuelle innvandrergruppen, kan både delta i utforming av et tilpasset tilbud og bidra til rekruttering av brukermedvirkere. Brukermedvirkning i forskning har fått stadig større oppmerksomhet, og brukere skal nå involveres i helseforskning finansiert av det offentlige. Brukermedvirkning i forskning bidrar til å bedre forskningens kvalitet og relevans og kan føre til utvikling av relevante intervensjoner og mer tilpassete tjenester. Det anbefales fra myndighetene at brukere involveres i hele forskningsprosessen fra unnfangelse av idé/tema til innsamling og analyse av data og formidling av forskningsfunn. I litteraturen pekes det imidlertid på at innvandrere og etniske minoriteter ofte er underrepresentert i forskning, og de kan være vanskelig å nå og involvere i forskningsprosjekter. Forskere kan mangle nettverk og kjennskap til ulike minoritetsgrupper, og brukere kan ha mistillit til forskere og mangle kunnskap om hva forskning er, og hvordan det foregår. I tillegg er språk- og kommunikasjonsutfordringer ofte en stor barriere. Begrenset tid er også en utfordring både hos forskere og brukere, og det er ofte ikke satt av nok midler til å gjennomføre reell brukermedvirkning. Manglende mangfold og representativitet i akademia kan øke avstanden mellom forskere og forskningstemaer og brukere og deres verdier og kunnskap. Deltakerbasert forskning blir framhevet som en tilnærming eller forskningsmodell som kan være særlig nyttig som metode for å inkludere underrepresenterte grupper i forskning. I tillegg kan det bidra til at minoritetsgrupper og lokalsamfunn finner løsninger på sine egne behov. Forskere må imidlertid være oppmerksom på utfordringer en brukerrolle kan innebære, og være bevisst på at forskningsfunn kan ha negative implikasjoner for grupper og lokalsamfunn. Det er behov for forskning fra norske forhold om innvandreres brukermedvirkning på både individnivå, tjenestenivå, systemnivå og i tjenesteforskning

    Learning to Score System Summaries for Better Content Selection Evaluation

    No full text
    The evaluation of summaries is a challenging but crucial task of the summarization field. In this work, we propose to learn an automatic scoring metric based on the human judgements available as part of classical summarization datasets like TAC-2008 and TAC-2009. Any existing automatic scoring metrics can be included as features, the model learns the combination exhibiting the best correlation with human judgments. The reliability of the new metric is tested in a further manual evaluation where we ask humans to evaluate summaries covering the whole scoring spectrum of the metric. We release the trained metric as an open-source tool

    Experimental study of multimodal representations for Frame Identification - How to find the right multimodal representations for this task?

    No full text
    Frame Identification (FrameId) is the first step in FrameNet Semantic Role Labeling where the correct frame is assigned to the predicate of a sentence. An automatic FrameId system takes the sentence and the predicate as input and predicts the correct frame. Current state-of-the-art FrameId systems are based on pretrained distributed word representations. For a wide range of tasks multimodal approaches are reported to be superior to unimodal approaches when textual embeddings are enriched with information from other modalities, for instance images. Regarding the task of FrameId, to the best of our knowledge, multimodal approaches have not yet been investigated and we think it deserves investigation due to the success of pretrained multimodal representations as input representations for other tasks. We want to find out whether representations that are grounded in images can help to improve the performance of our FrameId system. We report about our preliminary investigations with pretrained multimodal embeddings for FrameId

    Prediction of Frame-to-Frame Relations in the FrameNet Hierarchy with Frame Embeddings

    No full text
    Automatic completion of frame-to-frame (F2F) relations in the FrameNet (FN) hierarchy has received little attention, although they incorporate meta-level commonsense knowledge and are used in downstream approaches. We address the problem of sparsely annotated F2F relations. First, we examine whether the manually defined F2F relations emerge from text by learning text-based frame embeddings. Our analysis reveals insights about the difficulty of reconstructing F2F relations purely from text. Second, we present different systems for predicting F2F relations; our best-performing one uses the FN hierarchy to train on and to ground embeddings in. A comparison of systems and embeddings exposes the crucial influence of knowledge-based embeddings to a system’s performance in predicting F2F relations

    A handbook of reading strategies to improve reading fluency in nonfluent readers

    No full text
    One of the key challenges in learning joint embeddings of multiple modalities, e.g. of images and text, is to ensure coherent cross-modal semantics that generalize across datasets. We propose to address this through joint Gaussian regularization of the latent representations. Building on Wasserstein autoencoders (WAEs) to encode the input in each domain, we enforce the latent embeddings to be similar to a Gaussian prior that is shared across the two domains, ensuring compatible continuity of the encoded semantic representations of images and texts. Semantic alignment is achieved through supervision from matching image-text pairs. To show the benefits of our semi-supervised representation, we apply it to cross-modal retrieval and phrase localization. We not only achieve state-of-the-art accuracy, but significantly better generalization across datasets, owing to the semantic continuity of the latent space.Comment: Accepted at ICCV 2019 Workshop on Cross-Modal Learning in Real Worl

    Call for Discussion: Building a New Standard Dataset for Relation Extraction Tasks

    No full text
    This paper is an attempt to raise pertinent questions and act as platform to generate fruitful discussions within the AKBC community about the need for a large scale dataset for relation extraction. For proper training and evaluation of relation extraction tasks, the weaknesses of datasets used so far need to be tackled: mainly the size (too small) and the amount of data that is actually labelled (unlabelled data leading to recall problems). We have the vision of building a new large and fully labelled dataset for entity pairs connected via binary relations from both Freebase as well as other datasets, such as Clueweb. Concerning the process of building, we present pioneering work on a roadmap which will serve as the foundation for the intended discussion within the community. Points to discuss arise within the following steps: first, the source data has to be preprocessed in order to ensure that the set of relations consists of valid relations only; second, we suggest a method to find the most relevant relations for an entity pair; and third, we outline approaches on how to actually label the data. It is necessary to discuss several key issues in the process of generating this dataset. This will enable us to thoroughly create a dataset that will have the potential to serve as a standard to the community
    corecore